#!/usr/bin/env python
#coding=utf-8
"""常用正则表达式
"""

import re

def findEquation(str):
    """
    >>> findEquation('a=1')
    ('a', '1')
    """
    m = re.compile('(.+)=(.+)').search(str)
    return m.group(1), m.group(2)

def cleanhtml(data):
    """清除html标签
    >>> data = '<div>some</div>'
    >>> cleanHtml(data)
    'some'
    """
    data = re.sub(r'</p>', '\n', data)#加上分段
    data = re.sub(r'\&[a-zA-Z]{1,10};', '', data)#过滤&lt;
    data = re.sub(r'<[^>]*>', '', data)#过滤<>
    data = re.sub(r'[(/>)<]', '', data)#过滤单独的<>   
    return data

#匹配中文必须用unicode
print re.search('^.$', '中')#None
print re.search('^.$', u'中')#ok
print

print re.search('^中$', u'中')#None
print re.search(u'^中$', u'中')#ok
print

print re.search('^\d$', u'１')#None
print re.search('(?u)^\d$', u'１')#ok
print re.search('(?u)^\w$', u'中')#ok
print re.search('(?u)^\s$', u'　')#ok
print

print re.search(u'^[\u4e00-\u9fff]$', u'中')#ok

